Introducción a la programación con Triton: El paradoja del rendimiento: ¿por qué el código correcto es lento?

El Paradoja del rendimiento establece que un núcleo matemáticamente perfecto, como $out = x + y$, puede funcionar peor que un bucle en CPU si no logra amortizar los costos fijos del hardware de GPU. Esto suele manifestarse como el Impuesto de lanzamiento.

1. El error de la "correctitud"

La corrección funcional no es un indicador de eficiencia. Aunque tu código de Triton pueda distribuir correctamente el trabajo entre miles de hilos, si la cantidad total de trabajo (N) es pequeña, la GPU permanece subutilizada. El hardware gasta más tiempo en transiciones de estado que en operaciones aritméticas reales.

2. La trampa de medición en Python

Medir el rendimiento del código para GPU desde Python usando time.time() es peligroso. Las llamadas a GPU son asincrónicas; Python simplemente coloca en cola la orden y continúa. Sin torch.cuda.synchronize(), mides el tiempo de cola. Con sincronización, mides el latencia de host a dispositivo, que suele ser 10 veces mayor que la ejecución misma del núcleo.

3. Latencia frente a rendimiento

Para superar la paradoja, debes proporcionar suficiente trabajo para "ocultar" la latencia de lanzamiento. Este es el paso de un régimen limitado por latencia (limitado por el bus CPU-GPU) a un régimen limitado por rendimiento (limitado por la memoria o el cálculo de GPU).

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

For each kernel, decide whether the bottleneck is likely arithmetic throughput, memory bandwidth, or launch overhead: Vector addition (N=256), Vector addition (N=10^8), and Matrix Multiplication (N=8192).

N=256: Arithmetic; N=10^8: Bandwidth; MM: Launch

N=256: Launch; N=10^8: Bandwidth; MM: Arithmetic

N=256: Bandwidth; N=10^8: Arithmetic; MM: Launch

All are compute-bound.

QUESTION 2

In the context of the Performance Paradox, what is the primary bottleneck for a 'ReLU on a matrix' operation?

Arithmetic Throughput

Memory Bandwidth

L1 Cache Size

QUESTION 3

What does the term 'Asynchronous Execution' imply regarding GPU benchmarking?

The GPU and CPU always finish at the same time.

The CPU continues to the next line of code before the GPU kernel finishes.

The kernel runs faster on smaller GPUs.

Memory transfers are blocked by compute.

QUESTION 4

Why does $out = x + y$ exhibit low arithmetic intensity?

It uses three memory accesses (2 loads, 1 store) for a single floating-point operation.

The addition operation is too complex for the ALUs.

It requires shared memory synchronization.

It only runs on one SM.

QUESTION 5

How can the 'Launch Tax' be amortized in a real-world application?

By calling the kernel more frequently with smaller data.

By increasing the workload per launch (e.g., larger N or batching).

By using 16-bit floats instead of 32-bit floats.

By disabling the L2 cache.